气道分割对于胸部CT图像分析至关重要。但是,由于固有的复杂树状结构和气道分支的不平衡大小,这仍然是一项具有挑战性的任务。当前的深度学习方法着眼于模型结构设计,而培训策略和损失功能的潜力尚未得到充分探索。因此,我们提出了一个简单而有效的气道分割管道,该管道表示为Naviairway,它发现具有支气管敏感的损失功能和人类视觉启发的迭代训练策略,发现了更细的细支气管。实验结果表明,Naverway的表现优于现有方法,尤其是在识别高产生的细支气管和对新CT扫描的鲁棒性方面。此外,纳维亚威是一般的。它可以与不同的骨干模型结合使用,并显着提高其性能。此外,我们建议对基于深度学习的气道细分方法进行更全面,更公平的评估,以更全面,更公平地评估。 Naveraway可以生成用于导航支气管镜检查的气道路线图,并且在生物医学图像中细分精细和长管结构时,也可以应用于其他情况。该代码可在https://github.com/antonotnawang/naviairway上公开获得。
translated by 谷歌翻译
在监控视频中的异常检测是挑战,对确保公共安全有挑战性。不同于基于像素的异常检测方法,基于姿势的方法利用高结构化的骨架数据,这降低了计算负担,并避免了背景噪声的负面影响。然而,与基于像素的方法不同,这可以直接利用显式运动特征,例如光学流,基于姿势的方法缺乏替代动态表示。在本文中,提出了一种新的运动嵌入器(ME)以提供从概率的角度来提供姿态运动表示。此外,为自我监控姿势序列重建部署了一种新型任务特定的空间 - 时间变压器(STT)。然后将这两个模块集成到统一规律学习的统一框架中,该框架被称为运动先前规律学习者(MOPLL)。 MOPRL在几个具有挑战性的数据集中实现了4.7%AUC的平均改善,实现了最先进的性能。广泛的实验验证每个提出的模块的多功能性。
translated by 谷歌翻译
基于示例的基于彩色方法依赖于参考图像来为目标灰度图像提供合理的颜色。基于示例的颜色的关键和难度是在这两个图像之间建立准确的对应关系。以前的方法已经尝试构建这种对应关系,而是面临两个障碍。首先,使用用于计算对应的亮度通道是不准确的。其次,它们构建的密集信件引入了错误的匹配结果并提高了计算负担。为了解决这两个问题,我们提出了语义 - 稀疏的彩色网络(SSCN)以粗细的方式将全局图像样式和详细的语义相关颜色传输到灰度图像。我们的网络可以完全平衡全局和本地颜色,同时减轻了暧昧的匹配问题。实验表明,我们的方法优于定量和定性评估的现有方法,实现了最先进的性能。
translated by 谷歌翻译
课程学习开始在语音增强区中茁壮成长,使原始频谱估计任务将原始频谱估计任务分成多个更容易的子任务以实现更好的性能。由此,我们提出了一种双分支关注变压器,称为DB-Aiat,以并行地处理光谱的粗糙和细粒度。根据互补视角,提出了一种幅度掩蔽分支以粗略地估计整体幅度谱,并且同时设计复杂的精制分支,设计成补偿缺失的光谱细节和隐式导出的相位信息。在每个分支机构内,我们提出了一种新的注意力互感器的模块,以替换用于时间序列建模的传统RNN和时间卷积网络。具体地,提出的注意力变压器包括自适应时间 - 频率注意力变压器块和自适应分层关注模块,旨在捕获长期时间频率依赖性以及进一步聚合全局分层上下文信息。语音库+需求的实验结果表明,DB-AIAT在以前的高级系统上产生了最先进的性能(例如,3.31 PESQ,95.6%的STOI和10.79dB SSNR),其型号尺寸相对较小(2.81米)。
translated by 谷歌翻译
Correctly recognizing the behaviors of children with Autism Spectrum Disorder (ASD) is of vital importance for the diagnosis of Autism and timely early intervention. However, the observation and recording during the treatment from the parents of autistic children may not be accurate and objective. In such cases, automatic recognition systems based on computer vision and machine learning (in particular deep learning) technology can alleviate this issue to a large extent. Existing human action recognition models can now achieve persuasive performance on challenging activity datasets, e.g. daily activity, and sports activity. However, problem behaviors in children with ASD are very different from these general activities, and recognizing these problem behaviors via computer vision is less studied. In this paper, we first evaluate a strong baseline for action recognition, i.e. Video Swin Transformer, on two autism behaviors datasets (SSBD and ESBD) and show that it can achieve high accuracy and outperform the previous methods by a large margin, demonstrating the feasibility of vision-based problem behaviors recognition. Moreover, we propose language-assisted training to further enhance the action recognition performance. Specifically, we develop a two-branch multimodal deep learning framework by incorporating the "freely available" language description for each type of problem behavior. Experimental results demonstrate that incorporating additional language supervision can bring an obvious performance boost for the autism problem behaviors recognition task as compared to using the video information only (i.e. 3.49% improvement on ESBD and 1.46% on SSBD).
translated by 谷歌翻译
语义搜索是一项重要的任务,目的是从数据库中找到相关索引以进行查询。它需要一个可以正确学习句子语义的检索模型。基于变压器的模型由于其出色的学习语义表示能力而被广泛用作检索模型。同时,还提出了许多适合它们的正则化方法。在本文中,我们提出了一种新的正则化方法:正则化对比度学习,可以帮助基于变压器的模型学习更好地表示句子。首先,它为每个句子增强了几个不同的语义表示,然后将它们作为监管机构的对比目标。这些对比调节器可以克服过度拟合的问题并减轻各向异性问题。我们首先使用优于预训练的模型Sroberta对7个语义搜索基准测试进行评估。结果表明,我们的方法更有效地学习了出色的句子表示。然后,我们评估具有长期查询和索引的2个具有挑战性的FAQ数据集,咳嗽和FAQIR。我们的实验结果表明,我们的方法表现优于基线方法。
translated by 谷歌翻译
现有的模仿学习方法主要集中于使代理有效地模仿一种表现出的行为,但并未解决行为方式与任务目标之间的潜在矛盾。普遍缺乏有效的方法,使代理可以在完成任务的主要目标的同时部分模仿不同程度的演示行为。在本文中,我们提出了一种称为正规软批评的方法,该方法在受约束的马尔可夫决策过程框架(CMDP)下制定了主要任务和模仿任务。主要任务定义为软性参数(SAC)中使用的最大熵目标,模仿任务定义为约束。我们评估了与视频游戏应用程序相关的连续控制任务的方法。
translated by 谷歌翻译
尽管深层模型在医学图像分割中表现出了有希望的性能,但它们在很大程度上依赖大量宣布的数据,这很难访问,尤其是在临床实践中。另一方面,高准确的深层模型通常有大型模型尺寸,从而限制了它们在实际情况下的工作。在这项工作中,我们提出了一个新颖的不对称联合教师框架ACT-NET,以减轻半监督知识蒸馏的昂贵注释和计算成本的负担。我们通过共同教师网络推进教师学习的学习,以通过交替的学生和教师角色来促进从大型模型到小模型的不对称知识蒸馏,从而获得了临床就业的微小但准确的模型。为了验证我们的行动网络的有效性,我们在实验中采用了ACDC数据集进行心脏子结构分段。广泛的实验结果表明,ACT-NET的表现优于其他知识蒸馏方法,并实现无损分割性能,参数少250倍。
translated by 谷歌翻译
政治上通知的公民对威力发展的民主是必不可少的。虽然美国政府追求开放数据的政策,但这些努力在实现开放政府方面不足以实现技术和领域知识的人可以访问数据中的信息。在这项工作中,我们进行用户面试以确定利益相关者之间的需求和需求。我们进一步使用此信息来绘制功能政治信息系统的基础要求。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译